システムの記事

外村元伸

除算・開平・逆数・逆開平数とその演算回路設計(3)逐次演算を加速する方法 第6回

商、開平、逆数、逆開平ディジットを1ビットずつ逐次的に決 定していく方法は、けた数に比例した演算時間がかかる.特 に、部分剰余演算よりもディジット選択のための論理回路の段 数が多く必要である. そこで, 逐次決定法をベースにしながら も、演算を少しでも高速化する方法がいくつか提案されてい る. 今回は、これらのアイデアのいくつかを紹介する. (筆者)

## ● ディジット選択論理と部分剰余演算の制御

除算,開平,逆数,逆開平演算が共通に設計できる基数 2の逐次アルゴリズムに関して,部分剰余演算結果の上位 3ビットのキャリ伝播と4ビット目のキャリ・セーブ値を 参照することで,1ビットずつ各ディジットを決定できる 選択規則(表1)を前回(2007年7月号,pp.126-132)導きま した.

ディジット選択規則を導く過程は大変でしたが,規則そ のものは単純です.ディジット選択論理とそれによって制 御される部分剰余演算(i けた目)の回路を図1に示します.

表1 ディジット選択規則

| $q_i$ | r -1 | $r_0$ | $r_1$ | $(s_2, c_2)$ |  |
|-------|------|-------|-------|--------------|--|
| + 1   | 0    | 1     | 1     | *            |  |
| + 1   | 0    | 1     | 0     | *            |  |
| + 1   | 0    | 0     | 1     | *            |  |
| + 1   | 0    | 0     | 0     | Not 0        |  |
| 0     | 0    | 0     | 0     | 0            |  |
| 0     | 1    | 1     | 1     | *            |  |
| - 1   | 1    | 1     | 0     | *            |  |
| - 1   | 1    | 0     | 1     | *            |  |
| 未定義   | 1    | 0     | 0     | *            |  |

部分剰余演算結果の上位3ビットのキャリ伝播( $r_{-1}r_{0}r_{1}$ )の 符号 $(r_{-1})$ によって,  $r_{-1} = 0$ のときは $q_i = +1(X反転+1)$ 加算),  $r_{-1} = 1$  のときは $q_i = -1(X加算)$ , そして4ビット 目のキャリ・セーブ値( $s_2$ ,  $c_2$ )を参照して,( $r_{-1}r_0$  $r_1$ ,( $s_2$ ,  $(c_2)$ ) = (000,(0,0))  $\pm c_1(r_{-1}r_0r_1,(s_2,c_2))$  = (111, \* (\*: don't care )のときだけ,  $q_i = 0$  (X = 0加算)となる ように制御して部分剰余に加算する論理を組みます.これ にはセレクタ論理を巧みに利用しています.Xを反転したと きには,最下位けたに+1を加えることを図1には書いてい ないので、実際の設計においては忘れないように気をつけ



図1 ディジット選択論理と部分剰余演算の制御

上位3けたのキャリ伝播と4けた目のキャリ・セーブ値を参照してディジッ ト選択論理を組み,部分剰余演算回路を制御.

KeyWord

ディジット選択論理,部分剰余演算,除算,開平,逆数,逆開平演算,キャリ伝播,プリスケーリング法



#### てください.

さて,図1を見て分かるように,ディジット選択論理の 方が,部分剰余演算よりも論理段数が2倍あります.その ため,ディジット選択論理の部分をなんとかしたくなりま す、また、逐次アルゴリズムのため演算長に比例した時間 がかかることから、1ディジットを決定し部分剰余演算す る1サイクル当たりの論理段数を実質的に減らしたいとい う要望があります. そこで, 今回は論理段数を減らし逐次 演算を加速する以下のいくつかのアイデアについて解説し



図3 ディジット選択論理の2段(多段)重ね接続

1クロックの間に実行できる総論理段数が許す限り、ディジット選択論理を 多段に重ねる.

#### ます.

ディジット選択候補すべての部分剰余演算を並列実行し、 ディジット決定結果で部分剰余演算結果を選択する方法 除数の範囲を限定し,ディジット選択規則を簡単化する

方法:プリスケーリング法

一度に*m(*2)ビットずつディジットを決定していく方

法:高基数法

# ● すべての部分剰余演算を並列実行する

演算回路の論理段数を減らしたいということで, すぐ思 いつくのが、ディジット決定結果で部分剰余演算結果を選 択する方法です. 図2に示すように,ディジット選択論理 による結果を待たずに, $q_i = +1,0$ , -1 すべての場合の 部分剰余演算を並列に行います. ただし, 図2のように部 分剰余演算が2段でできる回路では,選択のためにセレク タ1段分遅れます、図1の方式に比べて1段分速くなるだ けです.1段分でも速くしなければならないときには有効 な方法です、それは、図3に示すように、ディジット選択 論理を一度に2段(多段)重ねて接続して,実質的に1ク ロック(マシン・サイクル)あたり2ビット(多ビット)の ディジット決定を可能にするような場合に有効です.1ク ロックあたり論理n段が可能な場合,図2の5段の回路が, n/5個分重ねて接続できる計算になります.

#### ● キャリ伝播も含めた並列部分剰余演算結果を選択する

 $q_i = +1,0,-1$ すべての場合の並列部分剰余演算を キャリ伝播も含めて行うことも考えられます. その場合を 図4に示します、上位3けたのキャリ伝播後の現在の部分



ディジット選択論理と並列  $Eq_i = +1,0,-1$ すべて の場合の部分剰余演算をあ らかじめ実行し,ディジッ ト決定値によって部分剰余 演算結果を選択、



剰余演算結果 $(r_{-1}r_0r_1)$ の符号 $(r_{-1})$ だけによって,  $q_i = +1$  $(r_{-1} = 0 \circ X 反 + 1 m )$ または $q_i = -1 (r_{-1} = 1 \circ X )$ 加 算)が決定します. $r_{-1}$ とXの排他的論理(XOR)を行い,次 の部分剰余演算とそのキャリ伝播を一気に実行します. そ のあいだに $q_i = 0$  (X = 0加算), つまり( $r_{-1}r_0r_1$ , ( $s_2$ ,  $(c_2)$ )=(000,(0,0)) $\pm$ t $(r_1r_0r_1,(s_2,c_2))$ =(111, \* ( \*: don't care )であるかを判定し, 最終的にセレクタ で次の部分剰余演算結果を選びます.

ここで,部分剰余の初期値では,非キャリ・セーブ形式  $(r_{-1}r_0r_1)$ になっていることに気をつけてください. 部分剰 余演算結果は左1ビット・シフトするため,  $q_i = 0$  (X = 0加算)の場合でも上位4けた目のキャリ・セーブ形式を非 キャリ・セーブ形式に変換する必要があることから、図5 に示す回路によって, けた上げのインクリメント処理を行 います.

r<sub>0</sub>とr<sub>1</sub>に対してけた上げのインクリメントを行う回路に は工夫したものを採用しています. 一見すると,3-2カウン 夕回路に見えますが、 $r_0$ と $r_1$ はけたが異なり、同じけた同 士のカウンタ回路ではありません、下位からのけた上げ入 力が来たときに、+1のインクリメント処理を行う回路と して働いてくれます  $r_0 = r_1 = 1$  のときに下位からけた上 げ入力が来ると $r_0 = r_1 = 0$ にクリアされます.けた上げ入 力がないと $r_0 = 1$ がセレクトされ, $r_0$ はクリアされません. さて,これだけがんばっても1ビットのディジット値を 求める一連の処理において, 論理段数が6段かかっており, 図1に示した方法も同じく6段です、これでは効果がない ように見えますが,最終けたのディジット値のキャリ伝播 分だけ削減しています. 図2の方法は面積が大きくなるが 5段なので,どの方法を選ぶかは,速度と面積の兼ね合い になります.

# ● 除数の範囲を限定しディジット選択規則を簡単化する

除算Y/Xは,1/2 X,Y<1の範囲に正規化しています が,もっと扱いやすい範囲はないのでしょうか、除算の次 の性質に注目してください.

$$\frac{Y}{X} = \frac{MY}{MX} = \frac{Y'}{X'} \tag{1}$$

被除数Yと除数Xの両方をM倍しても除算値は変わりま せん.この性質を利用して,除数Xの範囲を適当に制限し て除算のディジット選択規則が簡単化できることに気づい



図5  $q_i = O(X = 0)$  の場合のけた上げのインクリメント回路 roとroに対して、けた上げのインクリメントを行う回路の特徴に注意、



キャリ伝播も含めた並列 部分剰余演算結果を選択 する回路

符号ビットr.1によって、 現在の部分剰余演算値にX またはXの反転 + 1を加算 しキャリ伝播を実行し、そ の間に $q_i = 0$ の場合かを判 定し,次の部分剰余演算結 果を選択.



表2 除数のプリスケーリングによるディジット選択規則とその簡単 化(\*={2,1})

| q <sub>i</sub> =+1 | 加数               | q <sub>i</sub> = - 1 | 加数               | $q_i$ =0 | 加数               | $q_i$ =0 | 加数               |
|--------------------|------------------|----------------------|------------------|----------|------------------|----------|------------------|
|                    | 101              |                      | 010              |          | 111              |          | 000              |
| 被加数                | 次部分<br>剰余<br>1 * | 被加数                  | 次部分<br>剰余<br>1 * | 被加数      | 次部分<br>剰余<br>1 * | 被加数      | 次部分<br>剰余<br>1 * |
|                    | 11               |                      | 11               |          | 11               |          | 11               |
|                    | 00               |                      | 00               |          | 00               |          | 00               |



図6 プリスケーリング後のディジット選択論理と部分剰余演算 の制御

プリスケーリングによってディジット選択論理を簡単化し,少ない論 理段数で実現.

たのが,チェコの Svoboda [1963年 [3] やインドの Krishnamurthy [1970年 ]<sup>2</sup>でした.後にErcegovac <sup>1</sup>が プリスケーリング法と呼んで詳しく研究しました.筆者も ディジット選択規則の簡単化を試みていたら,適当な範囲 があることに気づきました.そこで,彼らの論文があるこ とを知ったのです、開平の場合は,プリスケーリングする と $\sqrt{X'} = \sqrt{MX}$ から, $\sqrt{X} = \sqrt{X'}/\sqrt{M} = \sqrt{M'}\sqrt{X'}$ となるので,後 にも乗算が必要になります.

表2に示すように、除数Xを1/2 X < 3/4の範囲に、つ まり[0.10...]b = [1/2,3/4)に限定した場合,商ディジッ トは部分剰余の上位2けただけの参照で決定できることを 示しています.上位2けたは, $(r_0, r_1)$ とし, $r_0$ のけたを符 号部とします . X = [ 0.10 ... ]b であることから , 部分剰余 の上位2ビットが[0.1]bのとき,商ディジット $q_i$  = +1 で - X = [ 0.10 ... ]b + [ 0 ... 1 ]b を加算 , [ 1.0 ]b のとき

表3 プリスケーリング変換の倍数 M

| $X: 0.x_1x_2$ | $M: m_0.m_1m_2$ |  |  |
|---------------|-----------------|--|--|
| 0.10          | 1.00            |  |  |
| 0.11          | 0.11            |  |  |

 $q_i = -1$ でX = [0.10...]b を加算 , [0.0]b のとき ,  $q_i = 0$ で 0 = [ 1.11 ... 1 ]b + [ 0 ... 1 ]b を加算 , [ 1.1 ]b のとき q<sub>i</sub> = 0 で0 = [ 0.000 ... 0 ]b を加算します. ここで, [ 0.0 ]b のとき に, $q_i = 0$ で安易に0 = [0.000...0]bを加算しないのは, 最上位ビットを捨てて左1ビット・シフトすると符号の連 続性が保たれない場合,例えば「0.02 7bのとき,「0.000... 0 lb 加算により, 結果[0.1 lb となる場合があるからです. そうすると, いずれの場合もキャリ伝播後の部分剰余演算 結果は , [ 1.1 ]b または[ 0.0 ]b となることから , 最上位ビッ トを捨てて左1ビット・シフトしても符号の連続性が保た れます.このように $q_i = 0$ の場合,最上位ビットの符号を 見て,0=[1.11...1]b+[0...1]bか[0.000...0]bを加算 するようにします. 論理反転の制御もしやすくなります. 図6にプリスケーリングO = Y'/X' = (MY)/(MX)を行った 除数X'と被除数Y'を用いて,上位2けただけをキャリ伝播 させてディジット選択し,部分剰余演算を行う回路を示し ます.

次にプリスケーリングQ = Y'/X' = (MY)/(MX)のための M 倍変換について説明します.除数X を[0.10...]b = [1/2,3/4)の範囲に収める必要があります.この場合そんなに難 しくありません.正規化されたXは,[0.1...]b = [1/2,1) の範囲にあるので,表3に示すように,[ $0.x_1x_2$ ]b =[0.10] bのときは,明らかに $M = [m_0.m_1m_2]b = [1.00]b$ です.ま た,  $[0x_1x_2]b = [0.11]b$  のときは,  $[m_0m_1m_2]b = [0.11]b$ とした場合, X' = MX = [ 0.10... To となることが分かりま す. それで,  $x_2$  ビットを見て,  $m_0$ ,  $m_1$ ,  $m_2$  のビットの値 を決めればよいので非常に簡単です.つまり,

$$[m_0.m_1m_2]b = [\bar{x}_2.x_2x_2]b$$
 .....(2)

です.プリスケーリング変換の回路を図7に示します.式 (1)から除数Xと被除数Yを同じようにM倍します.M倍 のためのセレクタ回路は**図**7の左に示す通りです.*M*倍の 結果はけた上げ先見加算回路(CLA)で求め、それぞれX'、 Y'を得ます.プリスケーリング方式は,その変換回路が余 分になっていますが,実際の除算器では,ゼロ除算をしな いように除数Xのゼロ検出を行います.これがCLAと同じ ようにトーナメント形式(けた数nのときlog2nオーダ)の

回路になることから、ゼロ検出の回路と並列に置けばこの オーバヘッドの影響はほとんどありません. プリスケーリ ング変換後は部分剰余の上位2けたのキャリ伝播でより簡 単なディジット選択ができるため、より少ない論理段数に なるという利点が生かせます.

これまで1ビットずつディジットを決定していく基数2 のアルゴリズムをベースに扱ってきました.次回は,一度 2)ビットずつディジットを決定していく高基数  $p = 2^m$ のアルゴリズムを解説します.高基数を扱うことは, たとえ基数4の場合でも格段に難しくなります.

1994年に発覚した,米国 Intel 社の Pentium プロセッサ の浮動小数点除算バグ(4)は当時話題になりました.従来, 基数2で実現していたのを,高速化のために基数4のアル ゴリズムを採用したのですが,ディジット選択を行うため に作成されたルックアップ・テーブルにおいて、あるケー スのエントリが欠落していました.

### ● ディジット選択規則(表1)の未定義部についての補足

ディジット選択規則( **表**1 )において , ( $r_{-1}, r_0, r_1$  ( $s_2, c_2$ ))= [ 10.0 \* ]b の場合は , qi の値を未定義としているのはなぜ かということに関する説明が不足していましたので補足し ます.

もし $q_i$  = -1と定義すると,例えば,除数X =[00.11]b の例では,部分剰余演算結果が,[10.00]b+[00.11]b= [ 10.11 ]b となることから , [ 10.11 ]b を左1 ビット・シフト して最上位ビットを捨てる([101.1]b [01.1]b)と,符 号が1から0になり符号の連続性が保てません.そこで,  $(r_{-1},r_0,r_1,(s_2,c_2))=[100*]$ b となることを禁止するため, 未定義にします.



プリスケーリング変換回路

除数の $x_2$ ビットを参照して倍数Mのセレクト制御し,けた上げ 先見加算器(CLA)にてプリスケーリング変換を実現.

#### 参考・引用\*文献

- (1) M. D. Ercegovac and T. Lang; Division and Square Root, Digit-Recurrence Algorithms and Implementations, Kluwer Academic Publishers , 1994.
- (2) E. V. Krishnamurthy; On Range-Transformation Techniques for Division, IEEE Transaction on Computers, Vol.C-19, No.2, pp.157-160 , Feb. 1970.
- (3) A. Svoboda; An algorithm for division, Information Processing Machines, Vol.9, pp.25-34, 1963.
- (4) T. Coe; Computational Aspects of the Pentium Affair, IEEE Computational Science & Engineering, Vol.2, No.1, pp.18-31, Spring 1995.

# とのむら・もとのぶ

大日本印刷株式会社 電子モジュールセンター DNP ひびきの研究所

# <筆者プロフィール> -

外村元伸.除算・開平・逆数・逆開平数の演算器設計は奥が深 く,かつて筆者の研究のメイン・テーマの一つでした.忘れてし まわないうちに、あまり知られていないことがらを含めて、まと めておこうと思って紹介しています.

#### Design Wave Advance

四則演算、初等超越関数、浮動小数点演算の作りかた

# ディジタル数値演算回路の実用設計

鈴木 昌治 著 B5変型判 256ページ 定価 3,570円(税込) JAN9784789836173

画像処理や音声処理,暗号処理などには欠かせない数値演算回路設計についての解説書です.本書では数値演算 回路として、加減算回路、乗算回路、除算回路、浮動小数点演算回路、初等超越関数を取り上げます、また、応用 回路としてディジタル・ビデオ・エフェクトのアドレス生成回路の設計方法を紹介します、本書はあくまでも実用 回路の製作に主眼を置いています. そのため, 具体的な回路例(ソース・コード)を示しながら, 数値演算を実際の 回路に落とし込む過程を理解できるように説明しています.また,製品の差異化の重要な要素となる高速化や小型 化を図るため, さまざまな視点でのアプローチを紹介します.

好評発売中

〒 170-8461 東京都豊島区巣鴨 1-14-2 販売部 🕰 (03)5395-2141 振替 00100-7-10665 CQ出版社